IDEA研究院谢育涛：借助AI提高科研效率，把科学家从非创新性劳动中解放出来

Original Uncle C IPO早知道

2024-08-22

基于人工智能的科研第五范式正在崛起。

本文为IPO早知道原创

作者｜苏打

微信公众号｜ipozaozhidao

“在每一次工业革命转折点或者拐点之前，都有漫长的科学革命、技术革命的序章，这个序章可能持续十几年、几百年，甚至上千年。而这个时间的发展对于我们每一个人来讲可能都要注意，在这个几十年之前的科学革命，可能是几十年之后工业文明的伟大基础，我们这一群人恰逢这样一个伟大的科技革命的时代机遇，因为科研范式正在升级，这是每个人可以抓住的机会。”

2007年，图灵奖得主Jim Gray提出了实验科学范式，时间范畴在一千多年前到几百年前；随后，一群天才科学家在几百年前推理演绎出现代物理的理论体系、电子力学，这一阶段被称为第二范式；第三范式和第二范式的类似之处在于，有很多推理过程没有办法算出来。其典型范例比如天气预报、地质演变等。

第四个范式则是最近二十年的事情，即数据科学范式，依靠现有数据总结、归纳、推理出一些结论，然后看看这个范式是否合理，从而引导我们走正确的科研方向，这一方法如今非常流行。

“但真实世界的复杂程度远超想象的，当人们面临更大的问题、更海量的数据时，解决方法可能就超出了第三、第四范式的范畴。”7月7日，在2023世界人工智能大会上，IDEA研究院工程总监、AI平台技术研究中心负责人谢育涛表示，“比如，今天的科学家都在面临一个问题，就是数据量大到一个地步的时候，都觉得不知道怎么处理。”

以下为谢育涛的演讲（有删节）：

以1TB为参照来看，欧洲大型的强子对撞机的数据是1TB，中国的天眼射电望远镜一天是500TB，储存可能是一件小事，但是处理起来非常不容易。清华大学的脑成像系统一天大概产生2800TB，这是2015年互联网一年的数据流量。

这里面可能有很多重复、冗余和无效的数据，对于计算范式、大数据范式来讲都是很难处理消化的。而在科学研究的范围内，更多视频、声音、图像之类的数据会不断出现，人们的想法会不断丰富。

另一类数据是文献。自然语言作为高度浓缩的知识形态，跟观测的数字、数据不一样，它非常重要，所以一篇论文里面包含的信息量往往非常庞大。

进入到21世纪以后，发表的论文篇数以指数级在往上涨，科研的人数也在剧烈增加，大量的数据、大量的高质量、内容很高的论文怎么处理？这对科学家来讲也是很大的难题。一个科学家做科研的时候在做什么事情？有海量的数据，还要进一步创新的时候该怎么办？

目前的技术正在帮助科学家来进行突破。这是一个闭环、不断循环的演进。第一步往往是明确问题，从现状和背景做一些调查研究，看看有什么问题值得去进一步探索，然后进行一些评估。

接下来是进行假设，在这个基础上可以做什么方向的研究。假设出来以后，就要开始设计实验，来证实或者证伪。最终获得结果后，便可以发论文、发报告。

这个过程的每一个步骤都离不开数据。去年，微软提出了科研的第五范式口号，即人工智能的科学范式，真正用智能的方式处理新的知识，对于海量的数据用人工智能的方法进行归纳、总结。其中，对于数字化的数据，可以使用很多大数据处理的方法或者机器学习、深度学习的方法来处理；对于文本的数据，我们发现以GPT为代表的技术，对于文本的理解已经达到一个新的高度。

2023年初GPT出来的时候，我们知道，它所展现出来的对于自然语言的处理，是一场巨大的革命。

自然语言为什么这么重要？我们往往讲“懂语言者得天下”，因为语言是高度智慧的浓缩，对于语言的理解让人类可以被理解，人的知识可以被理解，机器可以来理解人类要理解的知识，所以这是一个非常大的突破。

微软认为虽然GPT-4还不完整，还有很多欠缺的地方，但是可以被称为通用人工智能的早期版本，这是科学家对这个事情的初步看法是这样。

根据它所表现出来的能力，我认为非常适合科研人员的需要，为什么？因为科研人员有大量的文献根本来不及读，读了以后不一定读不懂，读懂以后也不一定可以跨学科，对于GPT这样的能力，基于自然语言的综合能力和推理的能力，非常适合这样一个群体，所以我们可以畅想在AGI或者AI新时代的驱动下，科研的第五范式到底能给科研带来多大的生产力提升。

事实上，人们有不同的猜测或者不同的畅想，比如说在2009年的时候，《Science》杂志发表了一个文章叫从实验数据中提炼自由形式的自然规律，想讲的观点就是机器可以发现新规律，不用科学家了。但在两个月之后，一位物理学家也在《Science》上发表了一篇文章题目叫做“机器离科学革命还有距离”，他认为没有任何机器可以制造革命。

我认为，在人类智慧创造力这件事上，暂时还没看到能被替代的可能性。但是生产力这件事情是绝对可以加速创新的——提升科学家的生产力，让他们更快地创新。所以我们今天在此次论坛中提出的是“AI for Scientists”，让AI这样最先进的工具来帮助最聪明的人，带来更多创新，为经济发展带来强劲动力，或许也有机会真正实现AI for Scientists。

其中，有这样几个改变将是显而易见的。第一是效率提升，因为AI会伴随着整个科研的流程，从提出假设到做实验，再到归纳总结，让科学家变得更高效；第二是当生产力大幅度提升时，一定会有更多人参与到科研中。比如，以前我读不懂一篇学术文章，有AI帮助后不仅能读，更能拿来用。

第三是总结写完了，写得好不好，这件事AI是不是可以帮？我们来看一看现在的技术已经可以大家做什么。

一个是读。我会问模型一些问题，比如说，Attention is all you need的第一作者后面有发表什么文章吗？很多问题GPT-3.5和GPT4.0都回答得非常好，甚至能够给我一些观点。当然也有一些不足的地方，实际应用到科研生产力场景的时候还是有很大挑战的。

二是微调训练，哪一块还做得不够好或者微调的数据不够，这是我们的观察，即读的场景。很多开源的工具，基本上都是调用GPT-4的能力，所以会受益于GPT-4，也会受限于GPT-4。

比如说有一篇文章是对于Scaling Law提出了观点，我想知道后面有哪些工作进行了扩展研究，有没有提出一些相反的观点。但GPT3.5和GPT4的回答得基本上没有办法满足我的需要。

从这个例子中我们也看得出来，它在学术领域的训练可能不足，优化过程可能不足，我觉得这样的问题在很多的垂直领域都有这样的问题。

另外，我看到开源社区的一个工作，这个是做有一篇文章，快要发表了，明天要投稿了，那么我就问问AI，让它提建议。这是很难的事情。GPT3.5和GPT4虽然指出了一下问题，但并不是很明确。

这几个场景好像都有希望，可是做得不够好，怎么办？

所以我们研究院提出了打造一个学术领域的专业模型，满足各个场景的需要，因为现有的通用模型好像有各种各样的局限性。

首先是通用模型的训练。最优秀的代表就是GPT-4模型，但是它不开放，所以没有办法在上面做进一步的开发。从通用模型之后几件事情来看，非常重要的是扩大脑容量，具体讲就是把海量的学术资料、论文以及用户的评价、讨论都塞给它，让它可以去学习、了解，先读懂所需要的知识，这是学术大语言继续训练的工作。

这是预训练之后的第一步，我们会评估通用能力和领域专业能力，之后就进入指令微调，回答不同的问题就通过不同的指令。第二部是让很多用户的高质量标注数据进来，做质量微调和下一步的强化学习，使得答案符合人类的标准。

数据会直接影响到模型质量，同时算力也是非常巨大的需求，算法也需要调和研究，所以这是很庞大的工程，但是这个事情是有意义的，因为做出来了以后会有好的效果。

我们也做了一些早期的研究，看看是什么样的情况，可以举几个例子，就是做完这个之后可以怎么样，我们往前走的时候到底这个AI给科研生产力带来了多大的想象空间，我们碰到的这些问题是不是可以得到解决，这个方法是不是正确。

比如说在阅读的时候，我们有一个产品叫ReadPaper，可以识别文章结构、总结文章内容，还可以主动提一些问题、思考。它可以在文献之外提出全局性的问题，这个能力是ChatGPT不具备的。

另外是论文润色。这个部分很多人和很多工具也在做，我们是从科研的角度，用大模型基于对于科研领域的知识深度理解，提一些建议。比如，AI模拟审稿员会帮你总结一下是不是这个意思、缺点有什么、优点是什么，最后告诉你大概的论文打多少分；同时提供多达三、四十条的润色建议。标题、摘要部分，ReadPaper也可以提供帮助。

我们相信GPT-4已经显示了很强大的能力，虽然它并不是完美无瑕的，但确实打开了我们想象的空间，正在驱动各个行业的变革，科学也不例外。

我认为，科研当中首先能够被替代，而且应该被替代的，就是那些重复性高、有固定流程的工作。这个不需要科学家来做，比如说论文格式、标点符号等，都可以由机器来帮忙。

其次能被替代的，是对于知识的理解、推理部分。比如说论文综述可以来帮忙，科研选题可能有点难，但是也可以提供一些好的建议，实验设计完全可以想象，有了知识以后建议你怎么来做实验设计。

人类的创新力是人类智慧的核心，我认为暂时不可以被替代，但生产力的提升一定可以加速创新的过程。所以我们想借助人工智能提高科研效率，把科学家从非创新性的劳动中解放出来，让科学家发挥创造力，集中精力做他自己的事情，可以让给更多人的因为有工具可以做更多的工作。AI for Scientists做好了以后，对于科学家和你我而言，你只需要有一个好的想法。

本文由公众号IPO早知道（ID：ipozaozhidao）原创撰写，如需转载请联系C叔↓↓↓

锅圈｜十月稻田｜优必选｜货拉拉
节卡机器人｜爱科百发｜艾柯医疗｜北芯
知行科技｜一脉阳光｜瑞浦兰钧｜科伦博泰

继续滑动看下一个

IPO早知道

向上滑动看下一个

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

IDEA研究院谢育涛：借助AI提高科研效率，把科学家从非创新性劳动中解放出来

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

跟着南通住建局学“朝令夕改”

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

穿了跟没穿一样，胸型赞到爆！天然乳胶，性感到让男人腿软！

当“上帝”变为“老天爷”

生成图片，分享到微信朋友圈

IDEA研究院谢育涛：借助AI提高科研效率，把科学家从非创新性劳动中解放出来

您可能也对以下帖子感兴趣